home *** CD-ROM | disk | FTP | other *** search
/ Aminet 41 / Aminet 41 (2001)(Schatztruhe)[!][Feb 2001].iso / Aminet / dev / c / libiconv_src.lha / src / johab_hangul.h < prev    next >
Encoding:
C/C++ Source or Header  |  2000-11-07  |  9.1 KB  |  244 lines

  1.  
  2. /*
  3.  * JOHAB Hangul
  4.  *
  5.  * Ken Lunde writes in his "CJKV Information Processing" book, p. 114:
  6.  * "Hangul can be composed of two or three jamo (some jamo are considered
  7.  *  compound). Johab uses 19 initial jamo (consonants), 21 medial jamo (vowels)
  8.  *  and 27 final jamo (consonants; 28 when you include the "fill" character
  9.  *  for Hangul containing only two jamo). Multiplying these numbers results in
  10.  *  11172."
  11.  *
  12.  * Structure of the Johab encoding (see p. 181-184):
  13.  *   bit 15 = 1
  14.  *   bit 14..10 = initial jamo, only 19+1 out of 32 possible values are used
  15.  *   bit 9..5 = medial jamo, only 21+1 out of 32 possible values are used
  16.  *   bit 4..0 = final jamo, only 27+1 out of 32 possible values are used
  17.  * 
  18.  * Structure of the Unicode encoding:
  19.  * grep '^0x\([8-C]...\|D[0-7]..\)' unicode.org-mappings/EASTASIA/KSC/JOHAB.TXT
  20.  * You see that all characters there are marked "HANGUL LETTER" or "HANGUL
  21.  * SYLLABLE". If you eliminate the "HANGUL LETTER"s, the table is sorted
  22.  * in ascending order according to Johab encoding and according to the Unicode
  23.  * encoding. Now look a little more carefully, and you see that the following
  24.  * formula holds:
  25.  *     unicode == 0xAC00
  26.  *                + 21 * 28 * (jamo_initial_index[(johab >> 10) & 31] - 1)
  27.  *                + 28 * (jamo_medial_index[(johab >> 5) & 31] - 1)
  28.  *                + jamo_final_index[johab & 31]
  29.  * where the index tables are defined as below.
  30.  */
  31.  
  32. /* Tables mapping 5-bit groups to jamo letters. */
  33. /* Note that Jamo XX = UHC 0xA4A0+XX = Unicode 0x3130+XX */
  34. #define NONE 0xfd
  35. #define FILL 0xff
  36. static const unsigned char jamo_initial[32] = {
  37.   NONE, FILL, 0x01, 0x02, 0x04, 0x07, 0x08, 0x09,
  38.   0x11, 0x12, 0x13, 0x15, 0x16, 0x17, 0x18, 0x19,
  39.   0x1a, 0x1b, 0x1c, 0x1d, 0x1e, NONE, NONE, NONE,
  40.   NONE, NONE, NONE, NONE, NONE, NONE, NONE, NONE,
  41. };
  42. static const unsigned char jamo_medial[32] = {
  43.   NONE, NONE, FILL, 0x1f, 0x20, 0x21, 0x22, 0x23,
  44.   NONE, NONE, 0x24, 0x25, 0x26, 0x27, 0x28, 0x29,
  45.   NONE, NONE, 0x2a, 0x2b, 0x2c, 0x2d, 0x2e, 0x2f,
  46.   NONE, NONE, 0x30, 0x31, 0x32, 0x33, NONE, NONE,
  47. };
  48. static const unsigned char jamo_final[32] = {
  49.   NONE, FILL, 0x01, 0x02, 0x03, 0x04, 0x05, 0x06,
  50.   0x07, 0x09, 0x0a, 0x0b, 0x0c, 0x0d, 0x0e, 0x0f,
  51.   0x10, 0x11, NONE, 0x12, 0x14, 0x15, 0x16, 0x17,
  52.   0x18, 0x1a, 0x1b, 0x1c, 0x1d, 0x1e, NONE, NONE,
  53. };
  54. /* Same as jamo_final, except that it excludes characters already
  55.    contained in jamo_initial. 11 characters instead of 27. */
  56. static const unsigned char jamo_final_notinitial[32] = {
  57.   NONE, NONE, NONE, NONE, 0x03, NONE, 0x05, 0x06,
  58.   NONE, NONE, 0x0a, 0x0b, 0x0c, 0x0d, 0x0e, 0x0f,
  59.   0x10, NONE, NONE, NONE, 0x14, NONE, NONE, NONE,
  60.   NONE, NONE, NONE, NONE, NONE, NONE, NONE, NONE,
  61. };
  62.  
  63. /* Tables mapping 5-bit groups to packed indices. */
  64. #define none -1
  65. #define fill 0
  66. static const signed char jamo_initial_index[32] = {
  67.   none, fill, 0x01, 0x02, 0x03, 0x04, 0x05, 0x06,
  68.   0x07, 0x08, 0x09, 0x0a, 0x0b, 0x0c, 0x0d, 0x0e,
  69.   0x0f, 0x10, 0x11, 0x12, 0x13, none, none, none,
  70.   none, none, none, none, none, none, none, none,
  71. };
  72. static const signed char jamo_medial_index[32] = {
  73.   none, none, fill, 0x01, 0x02, 0x03, 0x04, 0x05,
  74.   none, none, 0x06, 0x07, 0x08, 0x09, 0x0a, 0x0b,
  75.   none, none, 0x0c, 0x0d, 0x0e, 0x0f, 0x10, 0x11,
  76.   none, none, 0x12, 0x13, 0x14, 0x15, none, none,
  77. };
  78. static const signed char jamo_final_index[32] = {
  79.   none, fill, 0x01, 0x02, 0x03, 0x04, 0x05, 0x06,
  80.   0x07, 0x08, 0x09, 0x0a, 0x0b, 0x0c, 0x0d, 0x0e,
  81.   0x0f, 0x10, none, 0x11, 0x12, 0x13, 0x14, 0x15,
  82.   0x16, 0x17, 0x18, 0x19, 0x1a, 0x1b, none, none,
  83. };
  84.  
  85. static int
  86. johab_hangul_mbtowc (conv_t conv, wchar_t *pwc, const unsigned char *s, int n)
  87. {
  88.   unsigned char c1 = s[0];
  89.   if ((c1 >= 0x84 && c1 <= 0xd3)) {
  90.     if (n >= 2) {
  91.       unsigned char c2 = s[1];
  92.       if ((c2 >= 0x41 && c2 < 0x7f) || (c2 >= 0x81 && c2 < 0xff)) {
  93.         unsigned int johab = (c1 << 8) | c2;
  94.         unsigned int bitspart1 = (johab >> 10) & 31;
  95.         unsigned int bitspart2 = (johab >> 5) & 31;
  96.         unsigned int bitspart3 = johab & 31;
  97.         int index1 = jamo_initial_index[bitspart1];
  98.         int index2 = jamo_medial_index[bitspart2];
  99.         int index3 = jamo_final_index[bitspart3];
  100.         /* Exclude "none" values. */
  101.         if (index1 >= 0 && index2 >= 0 && index3 >= 0) {
  102.           /* Deal with "fill" values in initial or medial position. */
  103.           if (index1 == fill) {
  104.             if (index2 == fill) {
  105.               unsigned char jamo3 = jamo_final_notinitial[bitspart3];
  106.               if (jamo3 != NONE) {
  107.                 *pwc = (wchar_t) 0x3130 + jamo3;
  108.                 return 2;
  109.               }
  110.             } else if (index3 == fill) {
  111.               unsigned char jamo2 = jamo_medial[bitspart2];
  112.               if (jamo2 != NONE && jamo2 != FILL) {
  113.                 *pwc = (wchar_t) 0x3130 + jamo2;
  114.                 return 2;
  115.               }
  116.             }
  117.             /* Syllables composed only of medial and final don't exist. */
  118.           } else if (index2 == fill) {
  119.             if (index3 == fill) {
  120.               unsigned char jamo1 = jamo_initial[bitspart1];
  121.               if (jamo1 != NONE && jamo1 != FILL) {
  122.                 *pwc = (wchar_t) 0x3130 + jamo1;
  123.                 return 2;
  124.               }
  125.             }
  126.             /* Syllables composed only of initial and final don't exist. */
  127.           } else {
  128.              /* index1 and index2 are not fill, but index3 may be fill. */
  129.              /* Nothing more to exclude. All 11172 code points are valid. */
  130.              *pwc = 0xac00 + ((index1 - 1) * 21 + (index2 - 1)) * 28 + index3;
  131.              return 2;
  132.           }
  133.         }
  134.       }
  135.       return RET_ILSEQ;
  136.     }
  137.     return RET_TOOFEW(0);
  138.   }
  139.   return RET_ILSEQ;
  140. }
  141.  
  142. /* 51 Jamo: 19 initial, 21 medial, 11 final not initial. */
  143. static const unsigned short johab_hangul_page31[51] = {
  144.           0x8841, 0x8c41, 0x8444, 0x9041, 0x8446, 0x8447, 0x9441, /*0x30-0x37*/
  145.   0x9841, 0x9c41, 0x844a, 0x844b, 0x844c, 0x844d, 0x844e, 0x844f, /*0x38-0x3f*/
  146.   0x8450, 0xa041, 0xa441, 0xa841, 0x8454, 0xac41, 0xb041, 0xb441, /*0x40-0x47*/
  147.   0xb841, 0xbc41, 0xc041, 0xc441, 0xc841, 0xcc41, 0xd041, 0x8461, /*0x48-0x4f*/
  148.   0x8481, 0x84a1, 0x84c1, 0x84e1, 0x8541, 0x8561, 0x8581, 0x85a1, /*0x50-0x57*/
  149.   0x85c1, 0x85e1, 0x8641, 0x8661, 0x8681, 0x86a1, 0x86c1, 0x86e1, /*0x58-0x5f*/
  150.   0x8741, 0x8761, 0x8781, 0x87a1,                                 /*0x60-0x67*/
  151. };
  152.  
  153. /* Tables mapping packed indices to 5-bit groups. */
  154. /* index1+1 = jamo_initial_index[bitspart1]  <==>
  155.    bitspart1 = jamo_initial_index_inverse[index1] */
  156. static const char jamo_initial_index_inverse[19] = {
  157.               0x02, 0x03, 0x04, 0x05, 0x06, 0x07,
  158.   0x08, 0x09, 0x0a, 0x0b, 0x0c, 0x0d, 0x0e, 0x0f,
  159.   0x10, 0x11, 0x12, 0x13, 0x14,
  160. };
  161. /* index2+1 = jamo_medial_index[bitspart2]  <==>
  162.    bitspart2 = jamo_medial_index_inverse[index2] */
  163. static const char jamo_medial_index_inverse[21] = {
  164.                     0x03, 0x04, 0x05, 0x06, 0x07,
  165.               0x0a, 0x0b, 0x0c, 0x0d, 0x0e, 0x0f,
  166.               0x12, 0x13, 0x14, 0x15, 0x16, 0x17,
  167.               0x1a, 0x1b, 0x1c, 0x1d,
  168. };
  169. /* index3 = jamo_final_index[bitspart3]  <==>
  170.    bitspart3 = jamo_final_index_inverse[index3] */
  171. static const char jamo_final_index_inverse[28] = {
  172.         0x01, 0x02, 0x03, 0x04, 0x05, 0x06, 0x07,
  173.   0x08, 0x09, 0x0a, 0x0b, 0x0c, 0x0d, 0x0e, 0x0f,
  174.   0x10, 0x11,       0x13, 0x14, 0x15, 0x16, 0x17,
  175.   0x18, 0x19, 0x1a, 0x1b, 0x1c, 0x1d,
  176. };
  177.  
  178. static int
  179. johab_hangul_wctomb (conv_t conv, unsigned char *r, wchar_t wc, int n)
  180. {
  181.   if (n >= 2) {
  182.     if (wc >= 0x3131 && wc < 0x3164) {
  183.       unsigned short c = johab_hangul_page31[wc-0x3131];
  184.       r[0] = (c >> 8); r[1] = (c & 0xff);
  185.       return 2;
  186.     } else if (wc >= 0xac00 && wc < 0xd7a4) {
  187.       unsigned int index1;
  188.       unsigned int index2;
  189.       unsigned int index3;
  190.       unsigned short c;
  191.       unsigned int tmp = wc - 0xac00;
  192.       index3 = tmp % 28; tmp = tmp / 28;
  193.       index2 = tmp % 21; tmp = tmp / 21;
  194.       index1 = tmp;
  195.       c = (((((1 << 5)
  196.               | jamo_initial_index_inverse[index1]) << 5)
  197.             | jamo_medial_index_inverse[index2]) << 5)
  198.           | jamo_final_index_inverse[index3];
  199.       r[0] = (c >> 8); r[1] = (c & 0xff);
  200.       return 2;
  201.     }
  202.     return RET_ILSEQ;
  203.   }
  204.   return RET_TOOSMALL;
  205. }
  206.  
  207. /*
  208.  * Decomposition of JOHAB Hangul in one to three Johab Jamo elements.
  209.  */
  210.  
  211. /* Decompose wc into r[0..2], and return the number of resulting Jamo elements.
  212.    Return RET_ILSEQ if decomposition is not possible. */
  213.  
  214. static int johab_hangul_decompose (conv_t conv, wchar_t* r, wchar_t wc)
  215. {
  216.   unsigned char buf[2];
  217.   int ret = johab_hangul_wctomb(conv,buf,wc,2);
  218.   if (ret != RET_ILSEQ) {
  219.     unsigned int hangul = (buf[0] << 8) | buf[1];
  220.     unsigned char jamo1 = jamo_initial[(hangul >> 10) & 31];
  221.     unsigned char jamo2 = jamo_medial[(hangul >> 5) & 31];
  222.     unsigned char jamo3 = jamo_final[hangul & 31];
  223.     if ((hangul >> 15) != 1) abort();
  224.     if (jamo1 != NONE && jamo2 != NONE && jamo3 != NONE) {
  225.       /* They are not all three == FILL because that would correspond to
  226.          johab = 0x8441, which doesn't exist. */
  227.       wchar_t* p = r;
  228.       if (jamo1 != FILL)
  229.         *p++ = 0x3130 + jamo1;
  230.       if (jamo2 != FILL)
  231.         *p++ = 0x3130 + jamo2;
  232.       if (jamo3 != FILL)
  233.         *p++ = 0x3130 + jamo3;
  234.       return p-r;
  235.     }
  236.   }
  237.   return RET_ILSEQ;
  238. }
  239.  
  240. #undef fill
  241. #undef none
  242. #undef FILL
  243. #undef NONE
  244.